TraMineR: une librairie R pour l'analyse de données séquentielles

نویسندگان

  • Alexis Gabadinho
  • Nicolas S. Müller
  • Gilbert Ritschard
  • Matthias Studer
چکیده

TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine des sciences sociales, telles que des trajectoires professionnelles ou familiales. Cependant, les méthodes sont applicables à tout type de données séquentielles ca-tégorielles. La librairie TraMineR offre un ensemble unique de fonctionalités dont de nombreuses ori-ginales. Elle s'intègre dans R, un logiciel libre, complet et multiplateforme offrant, par ailleurs, de nombreuses fonctions statistiques et graphiques avec lesquelles TraMineR peut interagir. Les fonctions de TraMineR permettent notamment de : – manipuler et transformer différents formats de données longitudinales ; – visualiser des séquences à l'aide de plusieurs types de graphiques ; – déterminer le centrotype et mesurer la diversité d'un ensemble de séquences ; – mesurer des caractéristiques longitudinales de séquences individuelles (longueur, durée par état, entropie, turbulence) ; – déterminer des caractéristiques de l'ensemble des séquences (entropie par âge, taux de transitions, durées moyennes dans chaque état, fréquences) ; – calculer la distance entre séquences à l'aide de plusieurs métriques (distance d'édition, plus longue sous-séquence commune, plus long préfixe commun) ; – analyser l'hétérogénéité des séquences (méthodes du type analyse de variance et arbre d'induction) ; – extraire les sous-séquences typiques d'événements ; – identifier les sous-séquences les plus discriminantes. La librairie est accompagnée d'un guide de l'utilisateur détaillé et illustré par de nombreux exemples que l'on trouve sur http://mephisto.unige.ch. TraMineR a été développé dans le cadre d'un projet de recherche sur la fouille d'histoires d'événements financé par le Fonds national suisse pour recherche scientifique.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Analyse de séquences d'événements avec TraMineR

Les méthodes de fouille de motifs séquentiels fréquents ont donné lieu, depuis le travail fondateur de Agrawal et Srikant (1995), à un grand nombre de travaux de recherche. La librairie TraMineR pour l’environnement statistique R cherche à rendre ces méthodes accessibles aux chercheurs de divers domaines désirant analyser ou visualiser des ensembles de séquences d’événements. Il est à noter que...

متن کامل

L'analyse relationnelle de concepts pour la fouille de données temporelles - Application à l'étude de données hydroécologiques

Résumé. Cet article présente une méthode d’exploration de données temporelles, fondée sur l’analyse relationnelle de concepts (ARC) et appliquée à des données séquentielles construites à partir d’échantillons physico-chimiques et biologiques prélevés dans des cours d’eau. Notre but est de mettre au jour des sous-séquences pertinentes et hiérarchisées, associant les deux types de paramètres. Pou...

متن کامل

Motifs récursifs : extraction ascendante hiérarchique d'ensembles d'items ou d'évènements pour le résumé de données transactionnelles ou séquentielles

Résumé. Nous proposons une méthode originale pour extraire un résumé compact, représentatif et intelligible des motifs fréquents dans des données transactionnelles ou séquentielles. Notre approche consiste à extraire un nouveau type de motifs que nous appelons motifs récursifs, i.e. des motifs de motifs, à l’aide d’un algorithme hiérarchique agglomératif nommé RepaMiner. Nous générons non pas u...

متن کامل

Classification probabiliste non supervisée et visualisation des données séquentielles

Résumé. Nous proposons dans ce papier un nouvel algorithme de classification non supervisée à base de modèle de mélange topologique pour des données non i.i.d (non independently and identically distributed). Ce nouveau paradigme probabiliste, plonge les cartes topologiques probabilistes dans une formulation sous forme de chaînes de Markov cachées. Dans cette formulation, la génération d’une obs...

متن کامل

Sélection de modèles par des méthodes à noyaux pour la classification de données séquentielles

Ce travail concerne le développement de méthodes de classification discriminantes pour des données séquentielles. Quelques techniques ont été proposées pour étendre aux séquences les méthodes discriminantes, comme les machines à vecteurs supports, par nature plus adaptées aux données en dimension fixe. Elles permettent de classifier des séquences complètes mais pas de réaliser la segmentation, ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009